《Representation Learning on Graphs with Jumping Knowledge Networks》
图是一种普遍存在的结构,广泛出现在数据分析问题中。现实世界的图(如社交网络、金融网络、生物网络和引文网络)代表了重要的丰富的信息,这些信息无法仅仅从单个实体中看到(如一个人所在的社区、一个分子的功能角色、以及企业资产对外部冲击的敏感性)。因此,图中节点的 representation learning
旨在从节点及其邻域中抽取高级特征,并已被证明对许多 application
非常有用,如节点分类、节点聚类、以及链接预测。
最近的工作集中在 node representation
的深度学习方法上。其中大多数深度学习方法遵循邻域聚合(也称作消息传递 message passing
)方案。这些模型迭代式地聚合每个节点的 hidden feature
及其周围邻域节点的 hidden feature
,从而作为该节点的新的 hidden feature
。其中每一次迭代都由一层神经网络来表示。理论上讲,执行 hidden feature
的聚合过程,利用了以节点 Weisfeiler-Lehman
图同构测试(graph isomorphism test
)的推广,并且能够同时学习图的拓扑结构以及邻域节点特征的分布。
但是,这种聚合方式可能会产生出人意料的结果。例如,已经观察到 GCN
的深度为 2
时达到最佳性能;当采用更深网络时,虽然理论上每个节点能够访问更大范围的信息,但是GCN
的效果反而更差。在计算机视觉领域中,这种现象称作学习退化 (degradation
),该问题可以通过残差连接来解决,这极大地帮助了深度模型的训练。但是在 GCN
中,在很多数据集(如,引文网络)上即使采用了残差连接,多层 GCN
的效果仍然比不过 2
层 GCN
。
基于上述观察,论文 《Representation Learning on Graphs with Jumping Knowledge Networks》
解决了两个问题:
首先,论文研究了邻域聚合方案的特点及其局限性。
其次,基于这种分析,论文提出了jumping knowledge network: JK-Net
框架。该框架和现有的模型不同,JK-Net
为每个节点灵活地利用不同的邻域范围,从而实现自适应的结构感知表示 (structure-aware representation
)。
通过大量实验,论文证明了 JK-Net
达到了 SOTA
性能。另外,将 JK-Net
框架和 GCN/GraphSage/GAT
等模型结合,可以持续改善这些模型的性能。
模型分析:为评估不同邻域聚合方案的行为,论文分析了节点 representation
依赖的邻域范围。论文通过节点的影响力分布 (the influence distribution
)(即不同邻域节点对于 representation
的贡献的分布)来刻画这个邻域范围。邻域范围隐式的编码了 nearest neighbors
的先验假设。
具体而言,我们将看到这个邻域范围严重受到图结构的影响。因此引发了一个疑问:是否所有的节点 tree-like
子图、expander-like
子图)。
进一步地,论文形式化地分析将 eigenvalue
)的函数。
改变的局部性(changing locality
):为了说明图结构的影响和重要性,请回想一下许多现实世界的图具有强烈局部变化的结构(locally strongly varying structure
)。在生物网络和引文网络中,大多数节点几乎没有连接,而一些节点 (hub
)连接到许多其它节点。社交网络和 web
网络通常由 expander-like
部分组成,它们分别代表 well-connected
实体和小社区 (small community
)。
除了节点特征之外,这种子图结构对于邻域聚合结果也有非常大的影响。邻域范围扩张的速度(或者叫影响半径的增长)通过随机游走的 mixing time
来刻画(即:从节点
例如考虑如下 GooglePlus
的社交网络,该图说明了从正方形节点开始的随机游走的扩散(随机游走的扩散也代表了影响力分布的扩散)。可以看到:不同结构的子图带来不同的邻域范围。
图 a
中,来自核心区域内节点的随机游走很快就覆盖了几乎整个图(随机游走覆盖的节点以绿色表示)。
图 b
中,来自tree
形区域节点的随机游走经过相同的 step
之后,仅覆盖图的一小部分(随机游走覆盖的节点以绿色表示)。
图 c
中,来自 tree
形区域节点使用更长的 step
之后达到了核心区域,并且影响力突然快速扩散。
在graph representation
模型中,这种随机游走的扩散转换为影响力分布。这表明:在同一个图中,相同数量的随机游走 step
可以导致非常不同的效果。因此我们需要根据具体的图,同时结合较大的邻域范围和较小的邻域范围:
太大的邻域范围可能会导致过度平滑,从而丢失局部信息。
太小的邻域范围可能信息不足,从而不足以支撑准确的预测。
JK network
:上述观察提出一个问题:能否有可能对不同的图和不同的节点自适应地调整邻域范围。为此论文 《Representation Learning on Graphs with Jumping Knowledge Networks》
提出了 JK-Net
框架,该框架在网络最后一层选择性地组合不同邻域范围,从而自适应地学习不同邻域的局部性(locality
)。如,将不同邻域范围 jump
到最后一层,因此这个网络被称作 Jumping Knowledge Networks: JK-Nets
。
相关工作:谱图卷积神经网络 (spectral graph convolutional neural network
)使用图拉普拉斯特征向量作为傅里叶基,从而在图上应用卷积。与诸如邻域聚合之类的空间方法(spatial approach
)相比,谱方法(spectral method
)的一个主要缺点是:需要提前知道图拉普拉斯矩阵(是 transductive
的)。因此,谱方法无法推广到 unseen
的图。
定义图
定义图
假设基于消息传递的模型有 hidden feature
为 hidden feature
的维度。为讨论方便,我们选择所有层的 hidden feature
维度都相等。另外,我们记
定义节点
则典型的消息传递模型可以描述为:对于第 hidden feature
更新方程为:
其中:
AGG
为聚合函数,不同的模型采用不同的聚合函数。
GCN
图卷积神经网络(《Semi-supervised classification with graph convolutional networks》
)hidden feature
更新方程为:
其中 degree
。
《Inductive representation learning on large graphs》
推导出一个在 inductive learing
中的 GCN
变体(即,GraphSAGE
),其hidden feature
更新方程为:
其中 degree
。
Neighborhood Aggregation with Skip Connections
:最近的一些模型并没有同时聚合节点及其邻域,而是先聚合邻域,然后将得到的neighborhood representation
和节点的上一层representation
相结合。其hidden feature
更新方程为:
其中
在这种范式中,COMBINE
函数是关键,可以将其视为跨层的跳跃连接(skip connection
)。 对于COMBINE
的选择,GraphSAGE
在特征转换之后直接进行拼接,Column Network
对二者进行插值,Gated GCN
使用 GRU
单元。
但是,该跳跃连接是 input-specific
的,而不是 output-specific
的。考虑某个节点 skip
。则后续更高层 skip
。我们无法做出这样的选择:对于第 skip
、对于第 skip
。即跳跃连接是由输入决定,而不是由输出决定。因此,跳跃连接无法自适应地独立调整 final-layer representation
的邻域大小。
Neighborhood Aggregation with Directional Biases
:最近有些模型没有平等地看到邻域节点,而是对“重要”的邻居给与更大的权重。可以将这类方法视为 directional bias
的邻域聚合,因为节点受到某些方向的影响要大于其它方向。
例如:GAT
和 VAIN
通过 attention
机制选择重要的邻居,GraphSAGE
的 max-pooling
隐式地选择重要的邻居。
这个研究方向和我们的研究方向正交。因为它调整的是邻域扩张的方向,而我们研究的是调整邻域扩张的范围。我们的方法可以和这些模型相结合,从而增加模型的表达能力。
在下文中,我们证明了 JK-Net
框架不仅适用于简单的邻域聚合模型(GCN
),还适用于跳跃连接 (GraphSAGE
)和 directional bias
(GAT
)。
我们首先利用 《Understanding black-box predictions via influence functions》
中的敏感性分析(sensitivity analysis
) 以及影响力函数的思想,它们衡量了单个训练样本对于参数的影响。给定节点 representation
。从这个影响范围,我们可以了解到节点
我们通过衡量节点 final representation
的影响程度,从而测量节点
影响力得分和分布的定义:给定一个图 hidden feature
, final representation
。
定义雅可比矩阵:
定义节点 influence score
)为:雅可比矩阵
其中:
定义节点 influence distribution
)为:所有节点对于节点
对于任何节点 representation
的影响。
考虑在
其物理意义为:随机游走第
步到达节点 的概率。
类似的定义适用于具有非均匀转移概率的随机游走。
随机游走分布的一个重要属性是:如果图是非二部图(non-bipartite
),则它随着 spread
,并收敛到极限分布。收敛速度取决于以节点 spectral gap
(或者 conductance
) 的限制(bounded
) 。
不同聚合模型和节点的影响力分布可以深入了解各个 representation
所捕获的信息。以下结果表明:常见的聚合方法的影响力分布和随机游走分布密切相关。这些观察暗示了我们接下来要讨论的优缺点。
假设 relu
在零点的导数也是零(实际上 relu
函数在零点不可导),则我们得到 GCN
和随机游走之间的关系:
定理:给定一个 GCN
变体,假设以相同的成功率
证明:令
则有:
这里我们简化了
这里
假设存在
其中
则根据链式法则,我们有:
对于每条路径
现在我们考虑偏导数
其中 relu
激活函数在
假设
因此有:
另外,我们知道从节点
假设每一层的权重相同:
这里的证明缺少了很多假设条件的说明,因此仅做参考。
很容易修改上述定理的证明,从而得到 GCN
版本的近似结果。唯一区别在于,对于随机游走路径
其中 degree
接近时。
类似地,我们也可以证明具有directional bias
的邻域聚合方案类似于有偏的随机游走分布。这可以通过替换掉上述定理中相应的概率得到证明。
从经验上看,我们观察到即使假设有所简化,但是我们的理论分析仍然接近于实际情况。
我们可视化了训练好的 GCN
的节点(正方形标记)的影响力分布的热力图,并与从同一节点开始的随机游走分布的热力图进行比较。较深的颜色对应于较高的影响力得分(或者较高的随机游走概率)。我们观察到 GCN
的影响力分布对应于随机游走分布。
为显示跳跃连接的效果,下图可视化了一个带跳跃连接的 GCN
的节点的影响力分布热力图。同样地,我们发现带跳跃连接的 GCN
的节点影响力分布大致对应于 lazy
随机游走分布(lazy
表示每步随机游走都有较高的概率停留在当前节点,这里 lazy
因子为 0.4
)。由于每次迭代过程中,所有节点的局部信息都以相似的概率进行保留,因此这无法适应不同高层节点的各种各样的需求。
为进一步理解上述定理,以及相应邻域聚合算法的局限性,我们重新审视了下图中社交网络的学习场景。
对于 expander
(左图)内部开始的随机游走以 step
快速收敛到几乎均匀分布。根据前述的定理,在经过 representation
几乎受到 expander
中所有任何其它节点的影响。因此,每个节点的 representation
将代表 global graph
,以至于过度平滑并带有节点自身的非常少的信息。
对于 tree-like
(右图)开始的随机游走,其收敛速度较慢。这使得经过消息传递模型的聚合之后,每个节点的 representation
保留了更多的局部信息。
如果消息传递模型的层数 representation
。
最后我们描述了热力图的相关细节,并提供了更多的可视化结果。
热力图中的节点颜色对应于影响力分布得分或者随机游走分布的概率。颜色越浅则得分越低、颜色越深则得分越高。我们使用相同的颜色来表示得分(或者概率)超过 0.2
的情形,因为很少有节点的影响力得分(或概率)超过 0.2
。对于得分(或概率)低于 0.001
的节点,我们没有在热力图中展示。
首先我们比较 GCN
的影响力分布 vs
随机游走概率分布,以及带跳跃连接的 GCN
的影响力分布 vs
惰性随机游走概率分布。
目标节点(被影响的节点或者随机游走的起始节点)标记为方块。
数据集为 Cora citation
网络,模型分别为 2/4/6
层训练好的 GCN
(或者带跳跃连接的 GCN Res
)。我们使用 《Semi-supervised classification with graph convolutional networks》
描述的超参数来训练模型。
影响力分布、随机游走分布根据前述的公式进行计算。
lazy
随机游走使用 lazy factor = 0.4
的随机游走,即每个节点在每次转移时有 0.4
的概率留在当前节点。
注意:对于degree
特别大的节点,GCN
影响力和随机游走概率的颜色有所不同。这是因为我们这里的 GCN
是基于公式
这使得在 GCN
影响力模型中,degree
更大的节点,其权重越低。
然后我们考察了不同子结构,这些可视化结果进一步支持了前述的定理。
下图中,使用 2
层的 GCN
模型分类错误,但是使用 3
层或 4
层 GCN
模型分类结果正确。
当局部子图结构是 tree-like
时,如果仅仅使用 2
层 GCN
(即查看 2-hop
邻域),则抽取的信息不足以支撑其预测正确。因此,如果能够从 3-hop
邻域或 4-hop
邻域中抽取信息,则可以学到节点的局部邻域的更好表示。
下图中,使用 3
或 4
层的 GCN
模型分类错误,但是使用 2
层 GCN
模型分类结果正确。这意味着从 3-hop
或 4-hop
邻域中抽取了太多无关的信息,从而使得节点无法学到正确的、有助于预测的 representation
。
在 expander
子结构中,随机游走覆盖的节点爆炸增长,3-hop
或者 4-hop
几乎覆盖了所有的节点。因此这种全局信息的 representation
对于每个节点的预测不是很理想。
在 bridge-like
子结构中,抽取更远的节点的信息可能意味着从一个完全不同的 community
中获取信息,这可能意味着噪音并影响最终预测。
前述观察提出了一个问题,即:在通用聚合方案中使用固定的、但是结构依赖的影响力半径大小是否能够实现所有任务中节点的best representation
。
如果选择的影响力半径过大,则可能导致过度平滑(oversmoothing
)。
如果选择的影响力半径国小,则可能导致聚合的信息量不足。
为此,我们提出了两个简单有效的体系结构调整:跳跃连接 + 自适应选择的聚合机制。
如下图所示为 JK-Net
的主要思想。
和常见的邻域聚合网络一样,每一层都是通过聚合来自上一层的邻域来扩大影响力分布的范围。
但是在最后一层,对于每个节点我们都从所有的这些 intermediate representation
中仔细挑选(jump
到最后一层),从而作为最终的节点 representation
。
由于这是针对每个节点独立完成的,因此模型可以根据需要为每个节点调整有效邻域范围,从而达到自适应的效果。
可以理解为常规的
GCN
模型之上再添加一个聚合层。
JK-Net
也使用通用的层聚合机制,但是最终的节点 representation
使用自适应选择的聚合机制。这里我们探索三种主要的聚合方法,其它方法也可以在这里使用。
令 representation
(每个中间层代表了不同的影响力范围),并将它们 jump
到最后一层。
concatenation
聚合:直接拼接
如果这个线性变换的权重 node-adaptive
的。
如果这个线性变换的权重 node-adaptive
的。
max-pooling
聚合:对 feature coordinate
选择信息最丰富的layer
。这种方式是自适应的,并且不会引入任何其它额外的学习参数。
LSTM-attention
聚合:注意力机制通过对每个节点 representation
对于节点 representation
为所有中间层的 representation
的加权平均:
对于 LSTM-attention
:
先将 LSTM
的输入,并对每层 LSTM hidden feature
LSTM hidden feature
然后通过对层 hidden feature
然后通过一个 softmax layer
应用到 attention
得分。
最后,将 attention
得分的加权和,作为节点 final representation
。
LSTM-attention
是 node-adaptive
的,因为不同节点的 attention score
是不同的。实验表明,这种方法适用于大型复杂的图。由于其相对较高的复杂度,会导致在小型图上过拟合。
另外,也可以将 LSTM
和最大池化相结合,即 LSTM max-pooling
。
这种
LSTM
聚合的方式太复杂,可以简单地基于来计算一个注意系数,然后基于注意力来聚合。
JK-Net
的实现比较简单,大量的篇幅都在形容理论。但是,这里的理论仅仅是解释问题,并没有解决问题。这里的layer aggregation
方式既没有理论解释,也没有解决问题(针对不同的节点自适应地选择不同的邻域大小):
为什么如此聚合?论文未给出原因。
不同的聚合方式代表了什么样的领域大小?这里也没有对应的物理解释。
层聚合(layer aggregation
)函数设计的关键思想是:在查看了所有中间层学到的 representation
之后,确定不同影响力范围内子图representation
的重要性,而不是对所有节点设置固定的、相同的影响力范围。
假设 relu
在零点的导数也是零(实际上 relu
函数在零点不可导),则 layer-wise max-pooling
隐式地自适应地学习了不同节点的局部影响力。layer-wise attention
也是类似的。
推论:假设计算图中相同长度的路径具有相同的激活概率 layer-wise max-pooling
的 JK-Net
中,对于任意
证明:假设经过层聚合之后节点 representation
为
其中
根据前述的定理,我们有:
其中:
下图给出了采用 max-pooling
的 6
层 JK-Net
如何学习从而自适应引文网络上不同的子结构。
在 tree-like
结构中,影响力仍然停留在节点所属的 small community
中。
相反,在 6
层 GCN
模型中,影响力可能会深入到与当前节点不想关的其它 community
中;而如果使用更浅层的 GCN
模型,则影响力可能无法覆盖当前节点所在的 community
。
对于 affiliate to hub
(即 bridge-like
)节点,它连接着不同的 community
,JK-Net
学会了对节点自身施加最大的影响,从而防止将其影响力扩散到不想关的community
。
GCN
模型不会捕捉到这种结构中节点自身的重要性,因为在几个随机游走step
之后,停留在 bridge-like
节点自身的概率很低。
对于 hub
节点(即 expander
),JK-Net
会在一个合理范围内将影响力扩散到相邻节点上。这是可以理解的,因为这些相邻节点和 hub
节点一样,都具有信息性。
JK-Net
的结构有些类似于 DenseNet
,但是一个疑问是:是否可以像 DenseNet
一样在所有层之间都使用跳跃连接,而不仅仅是中间层和最后一层之间使用跳跃连接。如果在所有层之间都使用跨层的跳跃连接,并使用 layer-wise concatenation
聚合,则网络结构非常类似于 DenseNet
。
从 graph theory
角度审视 DenseNet
,图像对应于规则的 graph
,因此不会面临具有变化的子图结构的挑战。确实,正如我们在实验中看到的,使用 concatenation
聚合的模型在更规则的图(如图像、结构良好的社区)上表现良好。
作为更通用的框架,JK-Net
接受更通用的 layer-wise
聚合模型,并在具有更复杂结构的图上实现更好的 structure-aware representation
。
数据集:
引文网络数据集 (Citeseer, Cora
) :数据集中每个节点代表一篇论文,特征为论文摘要的 bag-of-word
,边代表论文之间的引用链接。节点类别为论文的主题。
Reddit
数据集:数据集中每个节点代表一个帖子,特征为帖子所有单词的 word vector
。如果某个用户同时在两个帖子上发表评论,则这两个帖子之间存在链接。节点类别为帖子所属的 community
。
PPI
数据集:数据集包含 24
个图,每个图对应于一个人体组织的蛋白质结构图。图中每个节点都有 positional gene sets, motif gene sets, immunological signatures
作为特征, gene ontology sets
作为标签。
我们使用 20
个图进行训练、2
个图进行验证、剩余的 2
个图作为测试。
数据集的统计信息如下表所示:
baseline
模型:GCN
、GraphSage
、GAT
。
实验配置:
在 transductive
实验中,我们只允许访问单个图中的节点子集作为训练数据,剩余节点作为验证集/测试集。
在 Citeseer, Cora, Reddit
数据集上的实验是 transductive
的。
在 inductive
实验中,我们使用多个完整的图作为训练数据,并使用训练时未见过的、剩余的图作为验证集/测试集。
在 PPI
数据集上的实验是 inductive
的。
对于 Citeseer
和 Cora
数据集,我们选择GCN
作为 base
模型,因为在我们的数据集实验中它超越了 GAT
。
我们分别选择 MaxPooling(JK-MaxPool)
、Concatenation(JK-Concat)
、LSTM-attention(JK-LSTM)
作为最终聚合层来构建 JK-Net
。在进行最终聚合时,被聚合的 representation
除了图卷积中间层的 representation
之外,我们还考虑了第一个线性变换的 representation
(可以理解为第零层的 representation
)。最终预测是通过 final
聚合层的 representation
之上的全连接层来完成。
我们将每个图的节点根据 60%:20%:20%
的比例随机拆分为训练集、验证集、测试集。对于每个模型,我们将层数从 1
到 6
,针对验证集选择性能最佳的模型(及其对应的卷积层深度)。
JK-Net
配置:
学习率为 0.005
的 Adam
优化器。
比例为0.5
的 dropout
。
从 hidden feature
维度(Citeseer
为 16
,Cora
为 32
)。
在模型参数上添加 0.0005
的
每组实验随机执行3
次并报告准确率 accuracy
的均值和标准差(标准差在括号中给出),实验结果如下表所示。可以看到:
就预测准确率而言,JK-Net
优于 GAT
和 GCN
这两个baseline
。
尽管 JK-Net
总体表现良好,但是没有始终如一的赢家,并且各个数据集上的性能略有不同。
模型名字后面括号中的数字(1~6
之间)表示表现最佳的层数。仔细研究 Cora
的结果发现:
GCN
和 GAT
都在模型为2
层或 3
层时才能达到最佳准确率。这表明局部信息比全局信息更有助于分类。
层数越浅,则表明邻域范围越小,则表明是局部信息。
JK-Net
在模型为 6
层上获得最佳性能,这表明全局信息和局部信息事实上都有助于提高性能。这就是 JK-Net
这类模型发挥价值的所在。
LSTM-attention
可能由于复杂性太高,从而不适用于此类小模型。因此 JK-LSTM
在这两个数据集中表现最差。
对于 Reddit
数据集,由于它太大使得无法由 GCN
或 GAT
很好地处理。因此我们使用可扩展性更高的 GraphSAGE
作为 JK-Net
的 base
模型。
在 GraphSAGE
中存在不同的节点聚合方式,我们分别使用 MeanPool
和 MaxPool
来执行节点聚合,然后跟一个线性变换。考虑到 JK-Net
最后一层的三种聚合模式MaxPooling、Concatenation、LSTM-attention
,两两组合得到 6
种 JK-Net
变体。
我们采用和原始论文完全相同的 GraphSAGE
配置,其中模型由两层卷积层组成,hidden layer
维度为 128
维。我们使用学习率维 0.01
的 Adam
优化器,无权重衰减。
实验结果如下表所示,评估指标维 Micro-F1
得分。结论:
当采用 MaxPool
作为节点聚合器、Concat
作为层聚合器时,JK-Net
获得了最佳的 Micro-F1
得分。
注意:原始的 GraphSAGE
在 Reddit
数据集上的表现已经足够好(Micro-F1 = 0.950
),JK-Net
继续将错误率下降了 30%
。
Reddit
数据集中的社区是从表现良好的中等规模大小的社区中挑选而来,这是为了避免太大的社区中包含大量噪音、太小的社区是 tree-like
的。结果,该图比原始 Reddit
数据集更加规则,因此不会出现子图结构多样性的问题。
在这种情况下,node-specific
自适应邻域选择所增加的灵活性可能不是那么重要,而 concatenation
的稳定特点开始发挥作用。这也是为什么 JK-Concat
效果较好的原因。
对于 PPI
数据集,我们用它来证明自适应 JK-Net
的强大能力,该数据集的子图结构比 Reddit
数据集的子图结构更多样和复杂。
我们将 GraphSAGE
和 GAT
都作为 JK-Net
的 base model
。GraphSAGE
和 GAT
有很大的区别:GraphSAGE
基于采样,其中对每个节点的邻域采样固定的邻居数量;GAT
基于 attention
,它考虑每个节点的所有邻居。这种差异在可扩展性和性能方面导致巨大的差距。鉴于 GraphSAGE
可以扩展到更大的图,因此评估 JK-Net
在 GraphSAGE
上的提升显得更有价值。但是我们的实验在二者上都进行。我们的评估指标为 Micro-F1
得分。
对于 GraphSAGE
,我们遵循 Reddit
实验中的配置,只是在可能的情况下使用 3
层网络,并训练 10
到 30
个 epoch
。带有 *
的模型采用2
层(由于 GPU
内存限制),其它模型采用 3
层。作为对比,采用两层的 GraphSAGE
性能为 0.6
(未在表中给出)。
实验结果见下表。
对于 GAT
及其 JK-Net
变体,我们使用两层或三层网络,其中有 4
个 attention head
,每个 head
有 256
维(共 1024
维)。最后一个预测层有 6
个 attention head
,每个head
有 121
维。我们将这 6
个 head
执行均值池化,并灌入到 sigmoid
激活函数。我们在中间 attention
层之间引入跳跃链接。
所有这些模型都使用学习率为 0.005
的 Adam
优化器,并使用 batch size = 2
的 mini-batch
训练。
我们的 baseline
为 GAT
和 MLP
模型,网络层数从 2,3
之间选择。由于 GPU
内存限制,JK-Dense-Concat
和 JK-Dense-LSTM
的层数为 2
。
实验结果见下表。
结论:
带有 LSTM-attention
聚合器的JK-Net
超越了具有 concatenation
聚合器的非自适应性 JK-Net
模型,以及 GraphSAGE/GAT/MLP
等 baseline
模型。
在训练 30
个 epoch
之后,JK-LSTM
在 Micro-F1
得分上比 GraphSAGE
高出 0.128
(绝对提升)。
结构感知的节点自适应模型在 PPI
这类具有不同结构的复杂图上特别有效。